变形金刚在NLP和计算机视觉上实现了突破,最近开始在自动驾驶汽车(AV)的轨迹预测中表现出有希望的表现。如何有效地对自我代理与其他道路和动态对象之间的交互关系建模仍然对标准注意模块仍然具有挑战性。在这项工作中,我们提出了一个类似变压器的架构模块MNM网络,该网络配备了新型掩盖的目标调节训练程序,用于AV轨迹预测。最终的模型名为高尔夫球手,取得了最先进的性能,在2022 Waymo Open DataSet Motion Predict挑战中赢得了第二名,并根据Minade排名第一。
translated by 谷歌翻译
最佳的井位置和井注射生产对于储层开发至关重要,以最大程度地利用项目寿命。荟萃分析算法在解决复杂,非线性和非连续优化问题方面表现出良好的性能。但是,在优化过程中涉及大量数值模拟运行。在这项工作中,提出了一种新颖,有效的数据驱动的进化算法,称为通用数据驱动的差异进化算法(GDDE),以减少在良好的设置和控制优化问题上运行的模拟数量。概率神经网络(PNN)被用作选择信息性和有前途的候选者的分类器,并且基于欧几里得距离的最不确定的候选者被预先筛选并使用数值模拟器进行评估。随后,局部替代模型是通过径向基函数(RBF)构建的,优化器发现的替代物的最佳构建,由数值模拟器评估以加速收敛。值得注意的是,RBF模型和PNN的形状因子是通过解决高参数次级优化的优化问题来优化的。结果表明,这项研究中提出的优化算法对于二维储层和卵模型的关节优化的良好选择优化问题非常有前途。
translated by 谷歌翻译
现实世界图像超分辨率(SR)的关键挑战是在低分辨率(LR)图像中恢复具有复杂未知降解(例如,下采样,噪声和压缩)的缺失细节。大多数以前的作品还原图像空间中的此类缺失细节。为了应对自然图像的高度多样性,他们要么依靠难以训练和容易训练和伪影的不稳定的甘体,要么诉诸于通常不可用的高分辨率(HR)图像中的明确参考。在这项工作中,我们提出了匹配SR(FEMASR)的功能,该功能在更紧凑的特征空间中恢复了现实的HR图像。与图像空间方法不同,我们的FEMASR通过将扭曲的LR图像{\ IT特征}与我们预读的HR先验中的无失真性HR对应物匹配来恢复HR图像,并解码匹配的功能以获得现实的HR图像。具体而言,我们的人力资源先验包含一个离散的特征代码簿及其相关的解码器,它们在使用量化的生成对抗网络(VQGAN)的HR图像上预估计。值得注意的是,我们在VQGAN中结合了一种新型的语义正则化,以提高重建图像的质量。对于功能匹配,我们首先提取由LR编码器组成的LR编码器的LR功能,然后遵循简单的最近邻居策略,将其与预读的代码簿匹配。特别是,我们为LR编码器配备了与解码器的残留快捷方式连接,这对于优化功能匹配损耗至关重要,还有助于补充可能的功能匹配错误。实验结果表明,我们的方法比以前的方法产生更现实的HR图像。代码以\ url {https://github.com/chaofengc/femasr}发布。
translated by 谷歌翻译
深度立体声匹配近年来取得了重大进展。然而,最先进的方法基于昂贵的4D成本体积,这限制了它们在现实世界中的应用。要解决此问题,已经提出了3D相关映射和迭代差异更新。关于在现实世界平台中,如自动驾驶汽车和机器人,通常安装LIDAR。因此,我们进一步将稀疏的LIDAR点引入了迭代更新,这减轻了网络更新从零状态的差异的负担。此外,我们提出以自我监督的方式培训网络,以便可以在任何捕获的数据上培训,以获得更好的泛化能力。实验和比较表明,呈现的方法是有效的,并通过相关方法实现了可比的结果。
translated by 谷歌翻译
现有方法以非可分子点检测关键点,因此它们不能直接通过背部传播优化关键点的位置。为解决此问题,我们呈现了一个可差异的关键点检测模块,其输出精确的子像素键点。然后提出了再分断损耗直接优化这些子像素键点,并且呈现了分散峰值损耗以获得准确的关键点正则化。我们还以子像素方式提取描述符,并通过稳定的神经输注误差丢失训练。此外,轻量化网络被设计用于关键点检测和描述符提取,其可以在商业GPU上以每秒95帧运行为95帧。在同性记估计,相机姿态估计和视觉(重新)定位任务中,所提出的方法通过最先进的方法实现了相同的性能,而大大减少了推理时间。
translated by 谷歌翻译
关键点匹配是多个图像相关应用的关键组件,例如图像拼接,视觉同时定位和映射(SLAM)等。基于手工制作和最近出现的深度学习的关键点匹配方法仅依赖于关键点和本地功能,同时在上述应用中丢失其他可用传感器(如惯性测量单元(IMU))的视觉。在本文中,我们证明IMU集成的运动估计可用于利用图像之间的关键点之前的空间分布。为此,提出了一种注意力制剂的概率视角,以自然地将空间分布集成到注意力图神经网络中。在空间分布的帮助下,可以减少用于建模隐藏特征的网络的努力。此外,我们为所提出的关键点匹配网络提出了一个投影损耗,它在匹配和未匹配的关键点之间提供了平滑的边缘。图像匹配在Visual Slam数据集上的实验表明了呈现的方法的有效性和效率。
translated by 谷歌翻译
尽管通过卷积神经网络实现的光场超分辨率(LFSR)的最近进展,但由于4D LF数据的复杂性,灯场(LF)图像的相关信息尚未充分研究和利用。为了应对这种高维LF数据,大多数现有的LFSR方法采用将其分解成较低的尺寸并随后在分解的子空间上执行优化。然而,这些方法本质上是有限的,因为它们被忽略了分解操作的特性,并且仅利用了一组限量的LF子空间,最终未能全面提取时空角度并导致性能瓶颈。为了克服这些限制,在本文中,我们彻底发现了LF分解的潜力,并提出了一种新颖的分解核的概念。特别地,我们系统地将各种子空间的分解操作统一到一系列这样的分解核中,该分解核将其纳入我们所提出的分解内核网络(DKNET),用于全面的时空特征提取。与最先进的方法相比,所提出的DKNET经过实验验证以在2倍,3倍和4倍LFSR尺度中达到大量改进。为了进一步完善DKNet,在生产更多视觉上令人愉悦的LFSR结果,我们提出了一个LFVGG丢失来引导纹理增强的DKNet(TE-DKNet)来产生丰富的真实纹理,并显着提高LF图像的视觉质量。我们还通过利用LF材料识别来旨在客观地评估LFVGG损失所带来的感知增强的间接评估度量。
translated by 谷歌翻译
我们研究了社交网络中的在线影响最大化(OIM)问题,其中在多个回合中,学习者反复选择种子节点以产生级联,观察级联反馈,并逐渐学习产生最大级联的最佳种子。我们专注于本文的两个主要挑战。首先,我们使用节点级反馈而不是边缘级反馈。边缘级别反馈显示通过级联中通过信息的所有边,其中节点级反馈仅显示使用时间戳的激活节点。节点级反馈可以说是更逼真的,因为在实践中,观察到谁受到影响,而且很难观察来自哪个关系(边缘)的影响。其次,我们使用标准离线Oracle而不是脱机对 - Oracle。为了计算下一轮的良好种子集,离线对 - Oracle同时找到最佳种子集和置信区内的最佳参数,并且由于OIM问题的组合核心,这种Oracle难以计算。因此,我们专注于如何使用标准离线影响最大化Oracle,它找到了将边缘参数作为输入的最佳种子集。在本文中,我们解决了这两个最受欢迎的扩散模型,独立级联(IC)和线性阈值(LT)模型的这些挑战。对于IC模型,过去的研究只实现了边缘级反馈,而我们介绍了第一个$ \ widetilde {o}(\ sqrt {t})$ - 遗憾的节点级反馈算法。此外,算法仅调用标准离线oracles。对于LT模型,最近的一项研究仅提供了一个符合第一个挑战的OIM解决方案,但仍需要一对甲骨文。在本文中,我们应用类似于IC模型的类似技术,以用标准的Oracle替换一对Oracle,同时维持$ \ widetilde {o}(\ sqrt {t})$ - 后悔。
translated by 谷歌翻译
为了防止操纵图像内容(例如剪接,复制移动和删除),我们开发了一个渐进的时空通道相关网络(PSCC-NET),以检测和本地化图像操作。 PSCC-NET以两路程的过程处理图像:一条自上而下的路径,该路径提取本地和全局特征以及检测输入图像是否被操纵的自下而上的路径,并在多个尺度上估算其操纵掩码,每个尺度都在其中面具的条件是在前一个。与传统的编码器编码器和无流动结构不同,PSCC-NET在不同尺度上的功能具有密集的交叉连接,以粗到更细致的方式产生操纵罩。此外,空间通道相关模块(SCCM)捕获自下而上路径中的空间和渠道相关性,该路径赋予了整体提示,使网络能够应对广泛的操纵攻击。得益于轻巧的主链和渐进式机制,PSCC-NET可以在50+ fps下处理1,080p图像。广泛的实验证明了PSCC-NET优于最先进方法在检测和定位方面。
translated by 谷歌翻译
The objective of this paper is to learn dense 3D shape correspondence for topology-varying generic objects in an unsupervised manner. Conventional implicit functions estimate the occupancy of a 3D point given a shape latent code. Instead, our novel implicit function produces a probabilistic embedding to represent each 3D point in a part embedding space. Assuming the corresponding points are similar in the embedding space, we implement dense correspondence through an inverse function mapping from the part embedding vector to a corresponded 3D point. Both functions are jointly learned with several effective and uncertainty-aware loss functions to realize our assumption, together with the encoder generating the shape latent code. During inference, if a user selects an arbitrary point on the source shape, our algorithm can automatically generate a confidence score indicating whether there is a correspondence on the target shape, as well as the corresponding semantic point if there is one. Such a mechanism inherently benefits man-made objects with different part constitutions. The effectiveness of our approach is demonstrated through unsupervised 3D semantic correspondence and shape segmentation.
translated by 谷歌翻译